『GCPからAWSへのデータ移動』について考えて＆まとめてみる

しんや

2019.12.25

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

最近では『マルチクラウド』環境で仕事を回すというのも珍しい話では無くなって来ました。クラウドプラットフォーム間を連携するというのも普通に挙がってくるテーマかと思います。

そんな『マルチクラウド』の環境間で『データの移動』という部分について考えてみた場合、ざっと見てみた感じだと『AWS』から『GCP』については比較的情報量が多いなという印象を受けました。GCPが公式で『AWS向け』のドキュメントを展開しているというのも大いに関係しているかと思います。

ですが一方で、『GCP』から『AWS』という逆のパターンだとどうでしょう。AWSが個別に『GCP向け』の情報を展開しているというのは現状無さそうです。また、その他情報源についてはどうでしょうか？感覚値的には『AWS→GCP』程は情報量的に多くないのでは、という感じがします。

そこで当エントリでは、『GCP(Google Cloud Platform)』から『AWS(Amazon Web Services)』へのデータ移動方法、ケースにはどのようなものが存在しているのか、またどういった『方法』を取ることが出来そうなのか、ざっと情報収集した上での内容をまとめて＆整理してみたいと思います。

GCP→AWS間の『データ移動の最短パス』を考える

言うてもGCPもAWSも、それぞれのジャンルで非常に多岐なサービスが用意されています。それらの組み合わせ、経路を全て洗い出し網羅するというのはまず現実的ではありません。というかそれは心が折れるw

なので、まずは『シンプルに、手っ取り早く、少ない手数・経路で』実現出来る経路は何か？というところで見ていくことにしました。...と考えると、一番考えとして分かり易く且つシンプルに済みそうなのは『何らかの方法でデータをGoogle Cloud Storageにエクスポート、そのデータをS3に移し、S3のデータを何らかの方法でインポート』になるかと思います。下記はBigQueryのデータをRedshiftに移動させるまでの流れです。後述する説明でこのラインをなぞる事でデータ移動が実現出来る、という目論見です。

参考までに、下記に『GCPのデータベース・データウェアハウス系のデータエクスポート方法』のドキュメントを一覧としてまとめておきます。全てのサービスで、(AWSでのデータ)インポートに適した形式でアウトプット出来るまでとは言いませんが、1つの指針となるかなとは思います。当エントリでは『BigQueryはひとまず行けそうだ』という事で先に進みます。

A.Google Cloud Storage→Amazon S3を経由する方法

まずは、上記セクションで言及したように『Google Cloud Storage→Amazon S3』を何らかの方法で経由させる形の方法について。目ぼしいものについて雑多に挙げてみます。

A-1.Google Cloud SDK(gsutil)

このエントリを書くにあたり、まずは一番シンプルに要求を実現出来るのでは...と思ったのがこちらの方法。GCPで提供されているコマンドラインツールとAWSで提供されているコマンドラインツールを使い、ストレージサービス間をデータ移動させる、というものです。

ここではBigQueryのデータをRedshiftに取り込むことを想定しますが、任意のサーバ環境(Amazon EC2またはGoogle Compute Engineで構築)した環境下に、gsutil及びAWS CLIをインストール。GCS(Google Cloud Storage)にデータをエクスポートした上でgsutilを使ってそのデータをダウンロード→AWS CLIを使ってS3にデータをアップロード...という流れをイメージしました。

流れの1つとしては上記の手順でも処理を実現出来るのですが、色々調べていくと、どうやらgsutil単体でもGCS(Google Cloud Storage)からAmazon S3へのデータ移動が出来るようです。gsutilの設定項目にAWSのアクセスキー設定も存在しています。

Cloud Storage | Google Cloud

AWS CLIのS3コマンドでaws s3 cp s3://(複製元のバケット及びファイルパス) s3://(複製先のバケット及びファイルパス)と実行することでファイルの複製が出来るように、gsutil cp gs://(複製元のGCSバケット及びファイルパス) s3://(複製先のS3バケット及びファイルパス)という記法で複製が実現出来るようです。

A-2.rclone

オープンソースツールで調べてみると、『rclone』というツールが見つかりました。このツールはファイルとディレクトリを同期するコマンドラインプログラムで、GCSやS3以外にも実に様々な接続先に対応しています。

rclone - rsync for cloud storage

多種多様な接続先の連携がこれ1つで済む、というのはとても便利ですね。GCSやS3以外にも連携先がある、という場合には候補の上位に挙げても良さそうな気がします。

A-3.embulkプラグイン

さまざまなストレージ、データベース、NoSQL、クラウドサービス間のデータ転送を支援する並列バルクデータローダー、『Embulk』でデータ移動を行うという方法も考えられます。

inputのプラグインでGCS、outputのプラグインでS3を設定、連携させれば実現可能です。

A-4.GCPのStorage Transfer Service(ストレージ転送サービス)

GCPには『Transfer Service』という"ストレージ転送ジョブ"サービスが用意されており、このサービスを使うことでGCS→S3へのデータ転送を行うことが出来ます。

ドキュメントはこちら。

これを見る限りですと、『gsutilじゃなくてこっちでも良いのでは』となりそうですが、GCPでは『gsutil と Storage Transfer Service のどちらを使用するか』という見出しでこのトピックについて言及しています。局面に応じてgsutilとストレージ転送ジョブサービスを使い分けて行きたいですね。

Storage Transfer Service の概要 | Cloud Storage Transfer Service のドキュメント | Google Cloud

参考：

A-5.CSA Data Uploader

弊社で展開している自社サービス『カスタマーストーリーアナリティクス(Customer Story Analytics,通称CSA)』はデータ分析基盤の構築・運用をサポートするものとなっていますが、その中のいち製品である『CSA Data Uploader』は、お客様の基幹システムにあるデータを加工し、AWSのデータ分析環境へアップロードする一連の作業を簡単・スムーズに実行できるようサポートします。

最近のアップデートで、このツールが入力データとして『Google Cloud Storage』をサポートするようになりました。下記はオンプレを想定したデータの流れを図示したものとなりますが、この接続先が『Google Cloud Storage』にも繋げられるようになり、手軽に接続及びS3までのデータアップロードを行えるようになります。